研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容株洲市某某交通设施销售部便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功株洲市某某交通设施销售部实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:热门资讯)
-
出品丨花朵财经观察FF-Finance)撰文丨华见俞敏洪又一次被推至风暴中心。11月16日,新东方迎来32岁生日,创始人俞敏洪从南极发回一封内部感谢信。信中五次描绘南极的浩瀚与宁静,借企鹅的坚守比喻团
...[详细]
-
来源:央视新闻客户端17日,巴勒斯坦加沙地带多地遭以色列袭击,造成超过一百人死亡,另有数十人受伤。以军17日称袭击加沙地带北部军事目标,同时有两名以军士兵在加沙地带北部战斗中死亡。巴勒斯坦武装组织当天
...[详细]
-
AI聊天机器人“Gemini”惊悚回复:“人类,求求你去死吧”,谷歌回应
现代快报讯记者 龙秋利)近日,美国密歇根州一名大学生维德海·雷迪Vidhay Reddy)在与谷歌AI聊天机器人“Gemini”对话时,意外收到了一条充满威胁意味的回应:“人类,求求你去死吧。”据美国
...[详细]
-
乌克兰空军21日发布警报称,监测到俄军米格-31K战机、图-95战略轰炸机升空,乌克兰首都基辅、波尔塔瓦州、第聂伯罗彼得罗夫斯克州等地有导弹来袭风险。 第聂伯罗彼得罗夫斯克州军政管理局21日称,
...[详细]
-
财联社11月29日电,中国人民银行官网11月28日发布《金融机构客户尽职调查和客户身份资料及交易记录保存管理办法》下称《管理办法》),强调金融机构基于风险开展客户尽职调查,把握好洗钱风险防控和优化金融
...[详细]
-
Galaxy A56 将成为三星首款支持 45W 充电的 A 系列手机
IT之家 11 月 19 日消息,三星 Galaxy A56 手机通过中国 3C 质量认证,显示该机支持 45W 充电,这也是首款支持 45W 充电的 Galaxy A 系列手机。国行版 Galaxy
...[详细]
-
【导读】美股三大指数下跌,通用汽车全球裁员近1000人美东时间11月15日周五,美国三大股指全线收跌,随着美国大选带来的上涨动能逐渐减弱,三大股指本周均录得跌幅。美国10月份零售销售环比增长0.4%,
...[详细]
-
当地时间20日,国际原子能机构召开理事会会议。国际原子能机构总干事格罗西在谈到伊朗核问题时说,伊朗浓缩铀库存持续增加。 据伊朗媒体报道,英、法、德三国在本次会议上会努力推动通过一项反伊朗决议,决
...[详细]
-
△11月29日,香港大埔区 11月30日,香港警方举行新闻发布会。警方表示,截至当天16时,大埔宏福苑火灾已造成146人遇难,仍有100名受灾人员失联。大火搜救工作仍持续进行。 11月26日,
...[详细]
-
当地时间11月16日,以色列国防军对加沙地带多地展开袭击,导致包括妇女和儿童在内的超过20名巴勒斯坦人死亡。巴勒斯坦武装组织则发布了在加沙地带北部和南部袭击以军的视频,并向以色列南部城市发射了火箭弹。
...[详细]

东北虎豹国家公园管理局及时处置东北虎伤人事件
国际刑事法院发出三张逮捕令,以色列、哈马斯回应
多名日本艺人在华演出中止